메뉴

#구글 리서치

TD
The Decoder 56일 전
IMP 8

구글 연구: AI 평가, 인간의 의견 다양성 간과

구글과 로체스터 공과대학의 공동 연구에 따르면, AI 벤치마크에서 주로 사용하는 항목당 3~5명의 인간 평가자 수는 신뢰할 수 있는 결과를 도출하기에 부족합니다. 신뢰성 있는 평가를 위해서는 항목당 최소 10명 이상의 평가자가 필요하며, 전체 예산을 테스트 항목 수와 평가자 수에 맞게 전략적으로 분배하는 것이 필수적입니다.

AI 벤치마크 인간 평가 구글 리서치